7.3.3 카테고리 레벨 포즈 추정 네트워크: DualPoseNet과 Shape-Prior의 활용

7.3.3 카테고리 레벨 포즈 추정 네트워크: DualPoseNet과 Shape-Prior의 활용

1. 서론: 비정형 환경과 미지의 물체

현대 컴퓨터 비전과 로보틱스 분야에서 **카테고리 레벨 6D 물체 포즈 추정(Category-Level 6D Object Pose Estimation)**은 로봇이 통제되지 않은 실제 환경에서 물체와 상호작용하기 위해 필수적으로 해결해야 할 난제 중 하나이다. 전통적인 인스턴스 레벨(Instance-Level) 포즈 추정은 사전에 학습된 특정 물체의 정밀한 3D CAD 모델이 테스트 시점에도 가용하다는 전제하에 작동한다. 이는 제조 공정과 같이 제한된 종류의 부품만이 존재하는 환경에서는 매우 효과적이나, 가정용 서비스 로봇이나 물류 창고의 피킹 로봇과 같이 매일 새로운 브랜드와 디자인의 물체(Unseen Objects)를 마주해야 하는 상황에서는 그 유효성을 상실한다. 예를 들어, 로봇이 ’머그컵’이라는 범주에 속하는 수천 가지의 서로 다른 디자인을 모두 사전에 학습하고 3D 모델을 보유하는 것은 현실적으로 불가능하다.

이러한 한계를 극복하기 위해 제안된 카테고리 레벨 포즈 추정은, 로봇이 이전에 본 적 없는 새로운 인스턴스라 할지라도 그것이 기하학적으로 정의된 특정 카테고리(예: 병, 캔, 노트북)에 속한다면, 그 6D 포즈(3차원 회전 및 이동)와 물리적 크기(Scale)를 정확히 추론할 수 있어야 한다는 목표를 가진다. 이 과제의 핵심적인 기술적 장벽은 **클래스 내 변이(Intra-Class Variation)**이다. 동일한 ‘카메라’ 카테고리 내에서도 어떤 것은 콤팩트한 직육면체 형태인 반면, 어떤 것은 긴 렌즈가 돌출된 복잡한 형상을 띤다. 이처럼 형상, 텍스처, 크기가 극적으로 다른 개체들을 하나의 범주로 묶어 처리하면서 동시에 정밀한 포즈를 추정하기 위해서는, 단순한 패턴 인식을 넘어선 깊이 있는 기하학적 이해가 요구된다.

본 장에서는 이 난제를 해결하기 위해 학계와 산업계에서 주목받고 있는 두 가지의 혁신적인 파라다임, 즉 **네트워크 내부의 일관성(Consistency)**을 강화하는 접근법과 **외부의 형상 사전 지식(Shape Prior)**을 활용하는 접근법을 심도 있게 분석한다. 전자를 대표하는 DualPoseNet은 명시적 추론과 암시적 복원이라는 두 가지 상호보완적인 경로를 통해 데이터 자체의 정합성을 학습하며, 후자인 SPD, SGPA, CR-Net, FS-Net 등의 방법론들은 범주형 평균 형상을 기반으로 관측된 데이터의 불완전성을 메우는 전략을 취한다. 이들 기술의 아키텍처적 진보와 수학적 원리, 그리고 실제 환경에서의 성능을 포괄적으로 고찰한다.

2. DualPoseNet: 이중 경로 일관성 학습을 통한 정밀 추론

**DualPoseNet(Dual Pose Network with Refined Learning of Pose Consistency)**은 테스트 시점에 CAD 모델을 사용할 수 없다는 카테고리 레벨 포즈 추정의 제약 사항을 ’네트워크 구조의 이원화’를 통해 극복하고자 한 시도이다. 이 모델은 “동일한 물리적 대상을 바라보는 서로 다른 두 가지 해석은 기하학적으로 모순되지 않아야 한다“는 대전제를 바탕으로, 명시적 포즈 디코더(Explicit Pose Decoder)와 암시적 포즈 디코더(Implicit Pose Decoder) 간의 **상호 일관성(Pose Consistency)**을 강제하는 학습 전략을 채택하였다.

2.1 구면 퓨전(Spherical Fusion)과 회전 불변성

6D 포즈 추정, 특히 회전(Rotation) 성분의 추정에 있어 가장 큰 걸림돌은 입력 데이터의 회전에 따라 특징 맵(Feature Map)이 비선형적으로 왜곡된다는 점이다. 일반적인 2D CNN이나 3D PointNet 기반의 아키텍처는 이러한 회전 변화에 대해 등변성(Equivariance)을 보장하지 못한다. DualPoseNet은 이를 해결하기 위해 인코더 전체를 구면 컨볼루션(Spherical Convolution) 기반으로 설계하였다. 구면 컨볼루션은 데이터를 구면 도메인으로 투영하여 처리함으로써, 3차원 공간에서의 회전 SO(3)가 특징 공간상에서도 예측 가능한 변환으로 이어지도록 보장한다.

특히 주목할 만한 점은 구면 퓨전(Spherical Fusion) 모듈의 도입이다. 입력 데이터는 크게 RGB 이미지에서 유래한 외관(Appearance) 정보와 깊이 맵 또는 포인트 클라우드에서 유래한 형상(Shape) 정보로 나뉜다.

  • 외관 정보: 텍스처, 색상, 표면 재질에 대한 정보를 담고 있으며, 조명 변화에 민감하다.
  • 형상 정보: 물체의 기하학적 구조와 깊이 정보를 담고 있으며, 텍스처가 없는(Texture-less) 물체 인식에 필수적이다.

DualPoseNet은 이 두 이질적인 정보를 단순히 채널 차원에서 결합(Concatenation)하는 기존 방식을 탈피하여, 구면 스펙트럼 도메인(Spherical Spectral Domain) 상에서 융합한다. 이 퓨전 모듈은 외관과 형상의 특징이 서로를 보완하도록 유도하여, 조명이 급격히 변하거나 텍스처가 부족한 상황에서도 포즈에 민감한(Pose-Sensitive) 고차원 특징 임베딩을 효과적으로 생성해낸다. 이는 모델이 복잡한 배경 속에서도 대상 물체의 본질적인 기하학적 특성을 잃지 않도록 하는 핵심 기제이다.

2.2 이중 디코더 아키텍처 (Dual Decoder Architecture)

구면 인코더를 통해 추출된 특징 벡터는 두 개의 병렬 디코더로 분기되어 처리된다. 이 이중 구조는 DualPoseNet의 정체성을 형성하며, 각 디코더는 서로 다른 레벨의 추상화와 기하학적 작업을 수행한다.

2.2.1 명시적 포즈 디코더 (Explicit Pose Decoder, \Psi_{exp})

이 디코더는 전통적인 직접 회귀(Direct Regression) 방식을 따른다. 인코더의 잠재 벡터를 입력받아 다층 퍼셉트론(MLP)을 거쳐 6D 포즈 파라미터를 직접 출력한다.

  • 출력: 회전 행렬 R, 이동 벡터 t, 크기 벡터 s.
  • 장점: 전역적인 문맥(Global Context)을 빠르게 파악하고 전체적인 포즈의 윤곽을 잡는 데 유리하다.
  • 한계: 출력값이 물리적인 형상 제약 없이 숫자로서만 최적화되므로, 기하학적으로 불가능하거나 미세한 정합성이 떨어지는 포즈를 예측할 위험이 있다.

2.2.2 암시적 포즈 디코더 (Implicit Pose Decoder, \Psi_{im})

이 디코더는 포즈를 직접 예측하는 대신, 물체를 정규 객체 좌표 공간(NOCS) 상에서 재구성(Reconstruction)하는 작업을 수행한다. 즉, 입력된 각 픽셀(또는 포인트)이 표준화된 3D 공간(Canonical Space)의 어느 좌표 (x, y, z)에 대응되는지를 예측하는 밀집 대응(Dense Correspondence) 문제를 푼다.

  • 작동 메커니즘: 입력 특징을 바탕으로 NOCS 맵을 생성하며, 이는 사실상 물체의 3D 형상을 복원하는 것과 같다.
  • 역산 과정: 예측된 NOCS 좌표와 관측된 카메라 좌표 간의 대응 관계가 형성되면, Umeyama 알고리즘과 같은 포즈 피팅 기법을 통해 회전, 이동, 크기 파라미터를 역으로 산출할 수 있다.
  • 장점: 형상 복원 과정을 거치기 때문에 국소적인 기하학적 디테일(Local Geometry)을 학습하게 되며, 물리적으로 타당한 결과를 내놓을 확률이 높다.

2.3 자기 적응형 포즈 일관성 손실 (Self-Adaptive Pose Consistency Loss)

DualPoseNet의 백미는 이 두 디코더를 독립적으로 학습시키는 것이 아니라, 서로가 서로를 감독(Supervision)하도록 설계된 **일관성 손실(Consistency Loss)**에 있다. 테스트 시점에는 정답(Ground Truth) CAD 모델이 없으므로, 이 일관성 손실이 유일한 형상 정제(Refinement)의 기준이 된다.

수식적으로 이 손실 함수 L_{con}은 명시적 디코더가 예측한 포즈 파라미터로 입력 포인트 클라우드를 역변환하여 얻은 좌표 c_{p}와, 암시적 디코더가 예측한 NOCS 좌표 c 간의 차이로 정의된다 :
L_{con} = | c_{p} - c |
여기서 중요한 것은 자기 적응형(Self-Adaptive) 메커니즘이다. 네트워크는 학습 과정에서 각 디코더의 예측 불확실성(Uncertainty)을 추정하고, 이를 바탕으로 손실 함수의 가중치를 동적으로 조절한다.

  • 폐색(Occlusion) 상황: 물체의 일부가 가려져 암시적 디코더의 형상 복원이 불안정한 경우, 명시적 디코더의 전역적 예측에 더 큰 가중치를 부여하여 전체적인 포즈가 흔들리는 것을 방지한다.
  • 미세 정렬(Fine Alignment) 상황: 명시적 디코더가 대략적인 위치는 잡았으나 회전 각도가 미세하게 틀어진 경우, 암시적 디코더의 정밀한 형상 정보가 이를 보정하도록 유도한다.

이러한 상호 보완적 메커니즘 덕분에 DualPoseNet은 5^\circ, 2cm와 같은 고정밀 지표에서 기존 방법론들을 압도하는 성능을 보여주며, 특히 노이즈가 심하고 폐색이 빈번한 실제 환경(Real-world Scenarios)에서 강건한 성능을 입증하였다.

3. Shape-Prior 활용 네트워크: 범주형 지식의 기하학적 변형

DualPoseNet이 데이터 내부의 일관성에 집중했다면, 또 다른 주요 흐름은 **Shape-Prior(형상 사전 정보)**를 활용하여 관측 데이터의 불완전성을 메우는 것이다. 이 접근법은 “우리가 어떤 물체를 볼 때, 그 물체의 전형적인 형상을 이미 알고 있다“는 인지과학적 사실에 기반한다. 딥러닝 모델에 각 카테고리(예: 병, 노트북)의 평균적인 3D 형상(Mean Shape)을 사전 지식으로 주입하고, 이를 관측된 인스턴스에 맞게 **변형(Deformation)**시킴으로써 완전한 모델을 복원하는 전략이다.

3.1 SPD (Shape Prior Deformation): 형상 변형의 기초

Tian 등에 의해 제안된 SPD는 Shape-Prior를 6D 포즈 추정에 도입한 선구적인 연구이다. 이 방법은 카테고리별로 고정된 템플릿(Canonical Shape)을 준비하고, 신경망이 입력 이미지로부터 **변형 필드(Deformation Field)**를 예측하도록 학습시킨다.

  • 변형 메커니즘: 네트워크는 입력된 인스턴스의 특징을 분석하여, 사전 형상(Prior)의 각 점을 x, y, z 축으로 얼마나 이동시켜야 실제 인스턴스와 일치하게 될지를 나타내는 변형 행렬 D를 출력한다.
  • 한계점: SPD의 결정적인 약점은 **구조적 불일치(Structural Discrepancy)**에 취약하다는 것이다. 고정된 평균 형상은 해당 카테고리의 ‘일반적인’ 모습만을 대변할 뿐, 특정 인스턴스가 가진 독특한 기하학적 특징(예: 팔걸이가 없는 의자, 뚜껑이 열린 노트북)을 반영하지 못한다. 템플릿과 실제 물체 간의 형상 차이가 클수록 네트워크는 무리한 변형을 수행하게 되고, 이는 포즈 추정의 정확도를 떨어뜨리는 원인이 된다.

3.2 SGPA (Structure-Guided Prior Adaptation): 구조적 유사성의 동적 적응

SPD의 한계를 극복하기 위해 등장한 **SGPA(Structure-Guided Prior Adaptation)**는 사전 정보와 인스턴스 간의 **구조적 유사성(Structure Similarity)**을 능동적으로 활용한다.

  • 저순위 트랜스포머 (Low-Rank Transformer): SGPA는 포인트 클라우드 간의 관계를 모델링하기 위해 트랜스포머(Transformer) 아키텍처를 도입했다. 그러나 수천 개의 포인트 간의 어텐션(Attention)을 계산하는 것은 연산 비용이 매우 높다. 이를 해결하기 위해 SGPA는 저순위 근사(Low-Rank Approximation) 기법을 적용한 트랜스포머를 설계하여, 계산 복잡도를 낮추면서도 전역적인 구조 정보를 포착할 수 있게 했다.
  • 동적 적응 (Dynamic Adaptation): SGPA는 고정된 템플릿을 일방적으로 적용하는 것이 아니라, 입력 인스턴스의 특징에 따라 사전 정보 자체를 동적으로 조정한다. 즉, 사전 정보의 어떤 부분이 관측된 데이터의 어느 부분과 대응되는지를 파악하고, 그 구조적 맥락에 맞춰 템플릿을 ’성형’한 뒤 변형을 수행한다. 이를 통해 구조적 차이가 큰 물체에 대해서도 훨씬 정교한 NOCS 좌표 복원이 가능하다.

3.3 CR-Net (Cascaded Relation Network): 반복적 정제와 관계 학습

한 번의 추론으로 완벽한 3D 형상을 복원하는 것은 어렵다는 인식 하에, CR-Net캐스케이드(Cascaded) 구조를 통한 단계적 접근을 제안했다.

  • 관계 네트워크 (Relation Network): CR-Net의 핵심은 RGB 이미지(시각 정보), 포인트 클라우드(공간 정보), 그리고 카테고리 형상 사전(지식 정보)이라는 세 가지 모달리티 간의 복잡한 관계를 모델링하는 것이다. 이를 통해 각 정보가 서로의 결함을 보완하도록 유도한다.
  • 순환적 재구성 (Recurrent Reconstruction): 1단계에서는 대략적인(Coarse) 형상과 포즈를 추정하고, 2단계에서는 순환 신경망(Recurrent Neural Network) 구조를 통해 잔차(Residual)를 반복적으로 예측하며 결과를 미세 조정(Refine)한다. 이 반복적인 피드백 루프는 노이즈가 많은 실제 데이터에서 초기 추정이 불안정하더라도 점차 정답에 수렴하도록 돕는 강력한 기제이다.

3.4 FS-Net (Fast Shape-based Network): 속도와 효율성의 최적화

많은 Shape-Prior 방법들이 복잡한 연산으로 인해 실시간 처리에 어려움을 겪는 반면, FS-Net은 빠른 속도와 효율적인 특징 추출에 중점을 둔 아키텍처이다.

  • 방향 인식 오토인코더 (Orientation Aware Autoencoder): FS-Net은 **3D 그래프 컨볼루션(3D Graph Convolution, 3DGC)**을 사용하여 잠재 특징을 추출한다. 3DGC는 포인트 클라우드의 이동(Shift)과 크기(Scale) 변화에 불변(Invariant)하는 특성이 있어, 물체의 포즈가 변하더라도 고유한 형상 정보를 안정적으로 추출할 수 있다.
  • 분리된 회전 메커니즘 (Decoupled Rotation Mechanism): 회전을 하나의 복잡한 행렬로 예측하는 대신, 회전을 구성하는 두 개의 수직 벡터(예: x축 벡터와 y축 벡터)를 각각 예측하는 두 개의 디코더를 사용한다. 이는 특히 병이나 캔과 같은 회전 대칭(Rotational Symmetry) 물체를 다룰 때 모호성을 줄이고 학습을 단순화하여 높은 정확도를 달성하게 한다.
  • 박스 케이지 변형 (Box-Cage Deformation): 학습 데이터의 부족을 해결하기 위해, 3D 박스 케이지를 이용한 온라인 데이터 증강 기법을 도입하여 다양한 형상 변이를 실시간으로 생성하고 학습에 활용한다.

4. 비교 분석 및 성능 평가

이들 네트워크의 성능은 주로 합성 데이터셋인 CAMERA25와 실제 환경 데이터셋인 REAL275에서 평가된다. REAL275는 복잡한 배경, 조명 변화, 심한 폐색, 그리고 센서 노이즈가 포함되어 있어 알고리즘의 실질적인 강건성을 테스트하는 데 적합하다.

4.1 데이터에 따른 성능 비교 요약

아래 표는 각 방법론의 주요 특징과 REAL275 데이터셋에서의 상대적인 강점을 요약한 것이다. (구체적인 수치는 문헌에 따라 상이할 수 있으나, 일반적인 경향성을 반영함)

방법론핵심 메커니즘장점단점주요 성능 (5∘,2cm)
DualPoseNet이중 디코더, 일관성 손실초고정밀도, 폐색 강건성, CAD 모델 불필요복잡한 아키텍처 및 학습 난이도최상위권 (정밀도 중심)
SPD기본 변형 네트워크구조가 단순하고 직관적클래스 내 변이에 매우 취약중위권
SGPA트랜스포머, 구조적 적응구조적 불일치 극복, 높은 정확도트랜스포머 연산 비용 높음상위권
CR-Net캐스케이드, 순환 정제노이즈에 강함, 점진적 개선다단계 추론으로 인한 속도 저하상위권
FS-Net3DGC, 분리된 회전빠른 속도, 회전 대칭 처리 우수복잡한 비정형 형상 변형에는 한계상위권 (효율성 중심)

심층 분석:

  1. 정밀도 vs. 일반화: DualPoseNet은 일관성 손실을 통해 미세한 포즈 오차를 스스로 보정(Self-Refinement)하는 능력이 탁월하여, 특히 5^\circ, 2cm와 같이 높은 정밀도를 요구하는 지표에서 다른 방법론들을 큰 차이로 앞선다. 이는 템플릿에 의존하지 않고 데이터 자체의 기하학적 정합성을 추구한 결과이다.
  2. 노이즈 및 폐색 대응: 실제 환경(REAL275)에서는 깊이 센서의 노이즈와 물체 간 가림 현상이 빈번하다. DualPoseNet의 암시적 디코더와 CR-Net의 반복적 정제 과정은 이러한 불완전한 입력으로부터도 안정적인 형상을 복원해내는 강건함을 보여준다. 반면 초기 SPD 모델은 입력 포인트 클라우드의 품질에 민감하게 반응하는 경향이 있다.
  3. 최신 기술 트렌드: 최근에는 GPV-Pose와 같이 기하학적 통찰을 이용한 포인트 단위 보팅(Voting) 기법이나, HoPENet과 같이 고차원(High-Order) 정보를 활용하는 기법들이 등장하며 Shape-Prior 방법론의 성능을 더욱 끌어올리고 있다. 또한 NOCS 좌표계를 넘어, 확산 모델(Diffusion Model)을 이용해 형상 분포 자체를 생성하려는 시도들도 나타나고 있다.

5. 결론 및 향후 전망

제7.3.3절에서는 카테고리 레벨 6D 포즈 추정의 난제를 해결하기 위한 두 가지 주요 전략, 즉 DualPoseNet의 일관성 기반 접근법과 Shape-Prior 기반의 변형 접근법을 상세히 살펴보았다.

DualPoseNet은 명시적 추론과 암시적 복원 사이의 기하학적 일관성을 강제함으로써, 외부의 CAD 모델 없이도 네트워크 스스로 정밀한 포즈를 학습할 수 있음을 증명하였다. 이는 딥러닝 모델이 단순한 패턴 매칭을 넘어 물리적 타당성을 검증하는 단계로 진화했음을 시사한다. 반면 SGPA, CR-Net, FS-Net 등은 범주형 사전 지식을 지능적으로 활용하여 미지의 물체에 대한 대응력을 높였으며, 특히 구조적 적응(Structural Adaptation)과 반복적 정제(Recurrent Refinement) 기술을 통해 클래스 내 변이 문제를 효과적으로 극복해 나가고 있다.

향후 이 분야는 두 접근법의 융합을 통해 더욱 발전할 것으로 전망된다. 예를 들어, DualPoseNet의 일관성 손실을 Shape-Prior 네트워크의 미세 조정 단계에 도입하여 정밀도를 높이거나, 반대로 Shape-Prior를 DualPoseNet의 초기화에 활용하여 수렴 속도를 가속화하는 연구가 가능하다. 더 나아가, 신경방사장(NeRF)이나 3D Gaussian Splatting과 같은 최신 3D 표현 기술과의 결합은 로봇이 처음 보는 물체도 인간 수준의 직관으로 이해하고 조작할 수 있는 범용 인공지능 시각 시스템의 토대를 마련할 것이다.

6. 참고 자료

  1. Category-Level Object Pose Estimation with Statistic Attention - PMC - NIH, https://pmc.ncbi.nlm.nih.gov/articles/PMC11359894/
  2. GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation - arXiv, https://arxiv.org/html/2502.04293v1
  3. Structural Discrepancy Aware Category-Level 6D Object Pose Estimation - CVF Open Access, https://openaccess.thecvf.com/content/WACV2023/papers/Li_SD-Pose_Structural_Discrepancy_Aware_Category-Level_6D_Object_Pose_Estimation_WACV_2023_paper.pdf
  4. DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via Deformable Template Field - arXiv, https://arxiv.org/pdf/2308.02239
  5. Category-Level 6D Object Pose and Size Estimation Using Dual Pose Network With Refined Learning of Pose Consistency, https://openaccess.thecvf.com/content/ICCV2021/papers/Lin_DualPoseNet_Category-Level_6D_Object_Pose_and_Size_Estimation_Using_Dual_ICCV_2021_paper.pdf
  6. DualPoseNet: Category-level 6D Object Pose and Size Estimation …, https://arxiv.org/abs/2103.06526
  7. Daily Papers - Hugging Face, https://huggingface.co/papers?q=Normalized%20Object%20Coordinate%20Space%20(NOCS)
  8. A Survey of 6DoF Object Pose Estimation Methods for Different Application Scenarios, https://www.mdpi.com/1424-8220/24/4/1076
  9. [Quick Review] DualPoseNet: Category-level 6D Object Pose and Size Estimation Using Dual Pose Network with Refined Learning of Pose Consistency - Liner, https://liner.com/review/dualposenet-categorylevel-6d-object-pose-and-size-estimation-using-dual
  10. DualPoseNet: 6D Object Pose & Size Estimation - Emergent Mind, https://www.emergentmind.com/papers/2103.06526
  11. Symmetry-Aware Shape Prior Deformation for Direct Category-Level Object Pose Estimation - arXiv, https://arxiv.org/pdf/2208.06661
  12. Learning Point Cloud Representations with Pose Continuity for Depth-Based Category-Level 6D Object Pose Estimation - arXiv, https://arxiv.org/html/2508.14358v1
  13. Refined Prior Guided Category-Level 6D Pose Estimation and Its Application on Robotic Grasping - MDPI, https://www.mdpi.com/2076-3417/14/17/8009
  14. SGPA: Structure-Guided Prior Adaptation for Category-Level 6D Object Pose Estimation - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2021/papers/Chen_SGPA_Structure-Guided_Prior_Adaptation_for_Category-Level_6D_Object_Pose_Estimation_ICCV_2021_paper.pdf
  15. Category-Level 6D Object Pose Estimation via Cascaded Relation and Recurrent Reconstruction Networks - IEEE Xplore, https://ieeexplore.ieee.org/document/9636212/
  16. FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism - IEEE Xplore, https://ieeexplore.ieee.org/iel7/9577055/9577056/09578410.pdf
  17. FS-Net: Fast Shape-Based Network for Category-Level 6D Object Pose Estimation With Decoupled Rotation Mechanism - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_FS-Net_Fast_Shape-Based_Network_for_Category-Level_6D_Object_Pose_Estimation_CVPR_2021_paper.pdf
  18. FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism - Liner, https://liner.com/review/fsnet-fast-shapebased-network-for-categorylevel-6d-object-pose-estimation
  19. [2103.07054] FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism - ar5iv, https://ar5iv.labs.arxiv.org/html/2103.07054
  20. arXiv:2208.00237v2 [cs.CV] 28 Sep 2022, https://arxiv.org/pdf/2208.0237
  21. GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting, https://www.semanticscholar.org/paper/GPV-Pose%3A-Category-level-Object-Pose-Estimation-via-Di-Zhang/b6e4138bfe3f70e38c7412ad2f8e07927f9a5b09
  22. Category Level Object Pose Estimation via Global High-Order Pooling - MDPI, https://www.mdpi.com/2079-9292/13/9/1720
  23. Equivariant Diffusion Model With A5-Group Neurons for Joint Pose Estimation and Shape Reconstruction - IEEE Computer Society, https://www.computer.org/csdl/journal/tp/2025/06/10879592/24fKj5s6Fji